统计计量丨Back to Basics: OLS与内生性

数据Seminar 2021-06-03

The following article is from 计量经济学及Stata应用 Author 陈强

计量经济学是什么？它与统计学有何区别？简单地说，统计学使用多种方法分析数据，而计量经济学则专精于回归分析（regression analysis），以揭示变量间的因果关系。普通最小二乘法（Ordinary Least Squares，简记 OLS）则是最基本、最常用的回归方法。何时可用 OLS？在实践中，一般只要满足两个条件即可，即线性模型、无内生性。

线性模型（Linear Model）

假设（解释）变量 x 对（被解释）变量 y 的作用为线性函数，可得一元回归方程：

其中，α 与 β 为待估计的未知参数，下标 i 表示个体 i（比如，第 i 个企业），ε 为随机扰动项（stochastic disturbance，包含除 x 外影响 y 的所有其他因素），而 n 为样本容量。如果担心 x 对 y 的作用为非线性，可考虑加入 x 的平方项：

只要将 x² 也视为一个变量，则上式依然为线性模型。事实上，线性模型的本质定义为，回归方程是参数 (α, β, γ) 的线性函数（linear in parameters）。当然，也可以加入更多的解释变量（即多元回归方程）：

OLS估计量

OLS的思想很简单。对于一元回归，可根据数据 (x, y) 画形如以下的散点图：

OLS的思想就是要找到一条直线，离所有的点（观测值）最近。更一般地，对于多元回归，任给一个参数估计量：

可得对被解释变量 y 的预测值（fitted or predicted value）：

记此预测的误差为 “残差”（residual）:

我们希望所有的残差越小越好。但如果对残差求和则会出现正负抵消的情形；而如果考虑残差绝对值之和又不易求导数（绝对值函数有一处不可导）。为此，OLS通过选择最优的

，以最小化残差平方和（Sum of Squared Residuals，简记 SSR）：

由此所得的估计量，即为 “OLS估计量”（OLS estimator）。在几何上，可参见下图：

OLS的Stata操作

在 Stata 中，很容易进行 OLS 估计。比如，将 y 对 x1, x2 与 x3 进行 OLS 回归，其 Stata 命令为：

regress y x1 x2 x3, robust noconstant

其中，“regress” 的下划线表示可将 “regress” 简写为 “reg”，以此类推。选择项 “robust”表示使用（异方差）稳健标准误（建议总是使用此选择项），而 “noconstant” 表示省略常数项（很少使用此选择项）。

作为实例，使用Stata自带的系统数据集auto.dta，估计一个关于汽车的特征价格模型（hedonic pricing model），即假设汽车价格由其各项特征所决定（比如，每加仑英里数 mile per gallon、车重、车长等）。

. sysuse auto

(1978 Automobile Data)

. reg price mpg rep78 headroom trunk weight length turn displacement gear_ratio foreign, r

上表的估计结果汇报了OLS系数估计值、稳健标准误、t 统计量、F 统计量、p 值、置信区间、拟合优度 R²等。

无内生性（No Endogeneity）

何时可用OLS？OLS之所以如此流行，重要原因就是它所要求的条件非常少。对于线性模型，在实践中，一般仅要求无内生性即可。计量经济学的内生性定义很简单，即解释变量 x 与扰动项 ε 相关（相关系数或协方差不为0）。以一元回归为例：

内生性意味着：

如果存在内生性，则称解释变量 x 为 “内生变量”（endogenous variable）；反之，称 x 为“外生变量”（exogenous variable）。一般来说，如果 x 外生，则 OLS为一致估计量（consistent estimator），即当样本容量 n 趋向无穷大时，OLS 估计量依概率收敛（converge in probability）至真实的参数值，参见下图：

一致估计量示意图（真实参数 = 4）

内生性的主要后果是使得 OLS 变得不一致（inconsistent），即无论样本容量多大，其偏差（bias）也不会消失。直观上，可通过以下一元回归的示意图来理解。

不失一般性，假设解释变量 x 与扰动项 ε 正相关。故当 x 较小时，ε 也倾向于较小，使得观测值更多地集中于真实回归线的下方（上图左边）；而当 x 较大时，ε 也倾向于较大，使得观测值更多地集中于真实回归线的上方（上图右边）。因此，样本回归线（）比真实（总体）回归线（）更为陡峭，使得高估。即使增大样本容量（比如，使用人口普查的海量数据），也无法消去偏差，因为新增的样本观测值也存在同样的问题，故 OLS 估计量不一致。

内生性的来源

在哪些情况下，会导致解释变量与扰动项相关？常见的内生性来源主要包括：

（1）遗漏变量

假设真实模型为：

但在实际估计时，由于某种原因遗漏了解释变量 z，则 z 被纳入扰动项。如果 z 与 x 相关，就会导致 OLS 不一致，其偏差称为 “遗漏变量偏差”（omitted variable bias）。需要注意的是，虽然遗漏变量（omitted variables）普遍存在（受限于数据可得性），但并不一定就意味着遗漏变量偏差。只有遗漏变量与解释变量相关，才会导致遗漏变量偏差。

（2）双向因果

如果 x 影响y，而 y 也影响 x，则存在 “逆向因果”（reverse causality），也称 “双向因果” 或 “互为因果”。此时，可写下如下的联立方程组（simultaneous equations）：

此时，如果扰动项 ε 增大，则根据第一个方程，y 也会增大。而根据第二个方程，y 又会影响 x，从而导致扰动项 ε 与解释变量 x 相关，使得 OLS 不一致。由于双向因果总能写为以上联立方程组的形式，故称此偏差为 “联立方程偏差”（simultaneity bias）。

（3）变量测量误差

另一常见的内生性来源为解释变量的测量误差（measurement errors 或 errors in variables）。如果解释变量测量得不准确，则其测量误差也被纳入到扰动项中。可以证明，纳入扰动项中的测量误差一定会与解释变量相关，导致 OLS 不一致，称为 “测量误差偏差”（measurement error bias），参见陈强（2014，2015）。